read more
wikipedia维基百科xml数据解压/解析/清理
维基百科是搞自然语言处理的人经常想用到的语料库, 但是因为其文本是带有xml标签的raw数据, 所以很多人望而生畏. 这篇post主要讲一下如何获取/解析/清理维基百科的数据.
神经网络BP算法求导-手动推导
神经网络BP算法我这里不多说, 大家自行百度. 我这篇文章要手动计算一下神经网络算法求偏导数的过程, 其中用到了反向传播和链式法则. 为了简单, 我们用一个只有两层, 每层只有两个神经元的神经网络, 其网络结构如下:
python实现梯度下降->牛顿->拟牛顿算法
本文主要抄自这篇文章, 我只是学习一遍, 然后加入了自己的理解, 并不是比他写的更好. 因为我是做开发的, 所以文章会更偏工程.
首先澄清, 我们要解决的问题是最小化下面这个方程:
\[ \min_{x\in\mathbb{R}^2}f(x)=100(x_1^2-x_2)^2+(x_1-1)^2 \]
gensim lda 文档主题提取实现
怎么样将一堆文章聚合到不同的主题上, 并且还能提取主题的关键词, 这样我们就能对每个主题有一个大概的感性认识. LDA(Latent Dirichlet Allocation)就是实现这个功能的算法, 今天我们在这里使用python的gensim库来试用一下LDA算法. 但是在使用LDA之前, 我们需要使用pyltp进行分词.
pyltp安装和小白入门
之前一篇文章我介绍了一下如何在windows下安装pyltp, 但是自我感觉对小白还是不太友好, 因为我也是小白出身(潜在语义你懂), 所以我对小白有一种发自内心的感情纠结, 所以思前想后辗转反侧以后, 我决定再补充一篇入门教程.
我的开发环境:
- win10 64bit
- python3.5 64bit
我的意思是不要问我python怎么装上去的.
安装
参考哈工大自然语言处理ltp在windows10下的安装使用下载对应版本的wheel文件, 这是我自己打包的一个免编译安装文件, 为小白独家定制的, 拿走. 我下载的是pyltp-0.2.1-cp35-cp35m-win_amd64.whl
.
我的习惯是, 为每个任务创建一个虚拟环境.
假如我打算在D:\programs\learn-pyltp
目录下做开发, 后面简称工程根目录. 打开powershell, 不知道怎么打开的需要百度. cd 到这个目录.
1 | # 创建.env文件夹, 并以此作为虚拟环境的目录 |
把wheel文件放到工程根目录下, 运行命令:pip install pyltp-0.2.1-cp35-cp35m-win_amd64.whl
.
哈工大自然语言处理ltp在windows10下的安装使用
ltp是哈工大出品的自然语言处理工具箱, pyltp是python下对ltp(c++)的封装. 在linux下我们很容易的安装pyltp, 因为各种编译工具比较方便. 但是在windows下需要安装vs并且还得做一些配置, 因为我服务的人都是在windows下办公, 需要让他们能够在windows下使用ltp, 所以才有了这篇笔记. 我的方案有两个:
- 在win10 的bash下安装ltp, 然后启动ltp的server, 通过http协议来实现在windows下python调用ltp的方法.
- 安装编译好的wheel(目前只有python3.6/3.5 amd64)(我推荐这种方案)
- 我在文章最下面还引用了一种方法, 就是使用官方已经编译好的可执行exe文件, 直接在命令行(如cmd)下调用.
visual studio code 编辑器使用问题技巧汇总
下面总结一下我使用vscode的一些经验, 主要是给未来的自己记录笔记. 以后遇到问题还会逐渐补充道下面.